J'écris actuellement un analyseur de base pour une saveur XML. En guise d'exercice, j'implémente un analyseur basé sur une table LL. Voici mon exemple de grammaire BNF: % chaîne de données de nom de jeton %% / * LL (1) * / doc: elem elem: "<" open_tag open_tag: nom attr close_tag close_tag: ">" elem_or_data "" name ">" | "/>" ; elem_or_data: "<" open_tag elem_or_data | données elem_or_data | / * epsilon * / ; attr: nom ":" chaîne attr | / * epsilon * / ; Cette grammaire est-elle correcte? Chaque littéral terminal est entre guillemets. Les terminaux abstraits sont spécifiés par% token. Je code un lexer écrit à la main pour convertir mon entrée en une liste de jetons. Comment pourrais-je tokeniser les terminaux abstraits?
2021-03-03 08:11:32
L'approche classique serait d'écrire une expression régulière (ou autre outil de reconnaissance) pour chaque terminal possible. Ce que vous appelez des terminaux "abstraits", qui sont parfaitement concrets, sont en fait des terminaux dont les modèles associés reconnaissent plus d'une chaîne d'entrée possible. La chaîne réellement reconnue (ou une fonction calculée de cette chaîne) doit être transmise à l'analyseur en tant que valeur sémantique du jeton. Nominalement, à chaque point de la chaîne d'entrée, le tokeniseur exécutera tous les programmes de reconnaissance et choisira celui avec la correspondance la plus longue. (Il s'agit de la règle dite de "munch maximal".) Cela peut généralement être optimisé, en particulier si tous les modèles sont des expressions régulières. (F) lex fera cette optimisation pour vous, par exemple. Une complication dans votre cas est que la tokenisation de votre langage dépend du contexte. En particulier, lorsque la cible est elem_or_data, les seuls jetons possibles sont <, et "data". Cependant, à l'intérieur d'une balise, "data" n'est pas possible, et les balises "name" et "string" sont possibles (entre autres). Il est également possible que la valeur d'un attribut ait la même forme lexicale que la clé (c'est-à-dire un nom). Dans XML lui-même, la valeur de l'attribut doit être une chaîne entre guillemets et l'utilisation d'une chaîne sans guillemets sera signalée comme une erreur, mais il existe certainement des langages de type "XML" (tels que HTML) dans lesquels des valeurs d'attribut sans espace peuvent être insérées sans guillemets. Puisque l'analyse lexicale dépend du contexte, l'analyseur lexical doit être passé (ou avoir accès à) une information supplémentaire définissant le contexte lexical. Ceci est généralement représenté comme une valeur d'énumération unique, qui peut être calculée en fonction des derniers jetons retournés ou en fonction du PREMIER ensemble de la pile d'analyseurs actuelle. 2 | Ta Réponse StackExchange.ifUsing ("éditeur", fonction () { StackExchange.using ("externalEditor", function () { StackExchange.using ("extraits", function () { StackExchange.snippets.init (); }); }); }, "extraits de code"); StackExchange.ready (fonction () { var channelOptions = { tags: "" .split (""), id: "1" }; initTagRenderer ("". split (""), "" .split (""), channelOptions); StackExchange.using ("externalEditor", function () { // Doit lancer l'éditeur après les extraits de code, si les extraits de code sont activés if (StackExchange.settings.snippets.snippetsEnabled) { StackExchange.using ("extraits", function () { createEditor (); }); } autre { createEditor (); } }); function createEditor () { StackExchange.prepareEditor ({ useStacksEditor: faux, heartbeatType: 'réponse', autoActivateHeartbeat: faux, convertImagesToLinks: vrai, noModals: vrai, showLowRepImageUploadWarning: vrai, reputationToPostImages: 10, bindNavPrevention: vrai, suffixe: "", imageUploader: { brandingHtml: "Powered by \ u003ca href = \" https: //imgur.com/ \ "\ u003e \ u003csvg class = \" svg-icon \ "width = \" 50 \ "height = \" 18 \ "viewBox = \ "0 0 50 18 \" fill = \ "none \" xmlns = \ "http: //www.w3.org/2000/svg \" \ u003e \ u003cpath d = \ "M46.1709 9.17788C46.1709 8.26454 46.2665 7.94324 47.1084 7.58816C47.4091 7.46349 47.7169 7.36433 48.0099 7.26993C48.9099 6.97997 49.672 6.73443 49.672 5.93063C49.672 5.22043 48.9832 4.61182 48.1414 4.61182C47.4335 4.61182 46.72556.9762.6943 4.61182C47.4335 4.61182 46.7256 4.91628 46.094 4.69.4335 4.61182 46.7256 4.9762.6984 4.69.4335 4.61182 46.7256 4.9762.6943 4.6951.49.4335 4.61182 46.7256 4.9762.6943 4.69.48.4335 4.61182 46.725531.49.6943 43.1481 6.59048V11.9512C43.1481 13.2535 43.6264 13.8962 44.6595 13.8962C45.6924 13.8962 46.1709 13.2535 46.1709 11.9512V9.17788Z \ "/ \ u003e \ u003cpath d = \" M32.492 10.1419C32.492 12.6954.0 34184.01448.0 14.6954.0 34184.0 34184.0 14.6954.0 34184.0 34184.0 34184.0 34184.0 34184.0 41.5985 12.6954 41.5985 10.1419V6.59049C41.5985 5.28821 41.1394 4.66232 40.1061 4.66232C39.0732 4.66232 38.5948 5.28821 38.5948 6.59049V9.60062C38.5948 10.8521 38.2696 11.5455 37.0451 11.4455.5C35.820 521 35.4954 9.60062V6.59049C35.4954 5.28821 35.0173 4.66232 34.0034 4.66232C32.9703 4.66232 32.492 5.28821 32.492 6.59049V10.1419Z \ "/ \ u003e \ u003cpath fill-rule = \" evenodd \ "clip-rule = \" evenodd \ "clip-rule = \" evenodd \ "d. = \ "M25.6622 17.6335C27.8049 17.6335 29.3739 16.9402 30.2537 15.6379C30.8468 14.7755 30.9615 13.5579 30.9615 11.9512V6.59049C30.9615 5.28821 30.4833 4.66231 29.4502 4.66231C28.993.15.6379C30.8468 14.7755 30.9615 13.5579 30.9615 11.9512V6.59049C30.9615 5.28821 30.4833 4.66231 29.4502 4.66231C28.993.509 4.66231 29.4502 4.66231C28.993.505 4.66231 29.4502 4.66231C28.993.505 4.66231 29.4502 4.66231C28.993.505 4.66231 29.4502 4.66231C28.993.505 4.66231 28.4502 4.66231C28.993.505 4.66231 28.4502 4.66231C28.993.505 4.66231 28.4552 .1369 4.56087 21.0134 6.57349 21.0134 9.27932C21.0134 11.9852 23.003 13.913 25.3754 13.913C26.5612 13.913 27.4607 13.4902 28.1109 12.6616C28.1109 12.7229 28.1161 12.7799 28.121 12.8341.832C 12.7799 28.121 12.8341.830C 12.7799 28.137 12.8341.830C 12.1161 12.7799 28.121 12.8341.830C 12.1161 12.7799 28.121 12.8341.8304.1256.285 12.7799 28.137 12.8341.224C 12.7799 28.121 12.8341.28.285 12.7799 28.121 12.8341.224C 12.7799 28.121 12.8341.28.285 12.7799 28.121 12.8341.250 15.2321 24.1352 14.9821 23.5661 14.7787C23.176 14.6393 22.8472 14.5218 22.5437 14.5218C21.7977 14.5218 21.2429 15.0123 21.2429 15.6887C21.2429 16.7375 22.9072 17.6393 22.8472 14.5218 22.5437 14.5218C21.7977 14.5218 21.2429 15.0123 21.2429 15.6887C21.2429 16.7375 22.9072 17.6335 25.6622 17.6335 7.0269 7,02417.6335 25.6622 17.6335 7,0177,024247,024 27.2119 7.09766 28.0918 7.94324 28.0918 9.27932C28.0918 10.6321 27.2311 11.5116 26.1024 11.5116C24.9737 11.5116 24.1317 10.6491 24.1317 9.27932Z \ "/ \ u003e \ u003cpath d = \" M16.8045 11.9512C16.28013.8962C19.3298 13.8962 19.8079 13.2535 19.8079 11.9512V8.12928C19.8079 5.82936 18.4879 4.62866 16.4027 4.62866C15.1594 4.62866 14.279 4.98375 13.3609 5.88013C12.653 5.05154 11.6581 4.62866 72866C 10.35762.82.8254 11.6581 4.62866 72866C 10.35762.82.8254 11.6581 4.62866 72866C 10.35762.8328 13.9157 13.2535 13.9157 11.9512V8.90741C13.9157 7.58817 14.3365 6.91179 15.4269 6.91179C16.4027 6.91179 u. .31675 5.28821 2.83866 4.66232 1.82471 4.66232C0.791758 4.66232 0.313354 5.28821 0.31358.39.8562 1.313354 5.28821 0.313359.89.86232 0.313354 5.28821 0.31358.39.8562 1390179.84 1390179.85 13,2535 3,316 75 11.9512V6. Z \ "fill = \" # 1BB76E \ "/ \ u003e \ u003c / svg \ u003e \ u003c / a \ u003e", contentPolicyHtml: "Contributions des utilisateurs sous licence \ u003ca href = \" https: //stackoverflow.com/help/licensing \ "\ u003ecc by-sa \ u003c / a \ u003e \ u003ca href = \" https://stackoverflow.com / legal / content-policy \ "\ u003e (politique de contenu) \ u003c / a \ u003e", allowUrls: vrai }, onDemand: vrai, discardSelector: ".discard-answer" , immédiatementShowMarkdownHelp: true, enableTables: true, enableSnippets: true }); } }); Merci d'avoir répondu à Stack Overflow! Veuillez vous assurer de répondre à la question. Fournissez des détails et partagez vos recherches! Mais évitez… Demander de l'aide, des éclaircissements ou répondre à d'autres réponses. Faire des déclarations basées sur des opinions; Soutenez-les avec des références ou une expérience personnelle. Pour en savoir plus, consultez nos conseils sur la rédaction de bonnes réponses. Brouillon enregistré Brouillon rejeté Inscrivez-vous ou connectez-vous StackExchange.ready (fonction () { StackExchange.helpers.onClickDraftSave ('# login-link'); }); Inscrivez-vous avec Google Inscrivez-vous via Facebook Inscrivez-vous par e-mail et mot de passe Nous faire parvenir Publier en tant qu'invité Nom E-mail Obligatoire, mais jamais affiché StackExchange.ready ( fonction () { StackExchange.openid.initPostLogin ('. New-post-login', 'https% 3a% 2f% 2fstackoverflow.com% 2fquestions% 2f54745855% 2ftokenize-abstract-terminaux-in-ll-grammar% 23new-answer', 'question_page' ); } ); Publier en tant qu'invité Nom E-mail Obligatoire, mais jamais affiché Publiez votre réponse Jeter En cliquant sur «Publier votre réponse», vous acceptez nos conditions d'utilisation, notre politique de confidentialité et notre politique en matière de cookies Ce n'est pas la réponse que vous recherchez? Parcourez les autres questions marquées parsing lexer bnf ll recursive-descent ou posez votre propre question.